Diffusion Models Beat GANs on Image Synthesis
2021/5
We show that Diffusion Model can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. 無条件の画像合成では、一連のアブレーションを通じてより良いアーキテクチャを見つけることでこれを達成する
For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. 条件付き画像合成では、分類器ガイダンスによりサンプル品質をさらに向上させる。これは、分類器からの勾配を用いて多様性と忠実性をトレードオフするシンプルで計算効率の良い方法である。
We achieve an FID of 2.97 on ImageNet 128×128, 4.59 on ImageNet 256×256, and 7.72 on ImageNet 512×512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. その結果、ImageNet 128×128で2.97、ImageNet 256×256で4.59、ImageNet 512×512で7.72のFIDを達成し、サンプルあたりのフォワードパス数が25と少なくてもBigGAN-deepに一致し、分布のカバー率を向上させることに成功しました。 Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256×256 and 3.85 on ImageNet 512×512. We release our code at this https URL
最後に、分類器ガイダンスとアップサンプリング拡散モデルの組み合わせにより、FIDがImageNet 256×256で3.94、ImageNet 512×512で3.85とさらに改善されることがわかりました。コードはこちらのhttpsで公開しています。
「画像生成において、拡散モデルが GAN を超えた」と題されたこちらの論文では、拡散モデルにさらに複数の変更を加えることにより、BigGAN-deep (Brock et al., 2018) に匹敵するような画像生成の質 (上図参照) を可能にしています。
変更点の一つは、「分類器誘導型 (classifier-guided)」と呼ばれる生成です。
これは、画像を入力し、「コーギー犬」「フラミンゴ」「ハンバーガー」のような、その画像のクラスを出力する分類器が利用できる場合、その分類器の出力が大きくなるように拡散モデルを誘導することによって、あるクラスの高品質な画像が生成できるようになるというものです。
もちろん、分類器による誘導を使う場合、ラベル (画像の正解クラス) の付いたデータセットが必要になります。